论文推荐|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

Original 刘崇宇 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍了最近被IEEE TIP 2020 录用的论文 “EraseNet：End-to-end Text Removal in the Wild”的相关工作。该论文主要针对场景文字擦除的问题，首先从已有的场景文字检测与识别的公开数据集收集图片，通过人工标注构建了文字擦除的数据库SCUT-EnsText，并提出了EraseNet文字擦除模型，可以在整图级别不需要文本位置信息的先验下对场景中的文字进行擦除，最后也在该数据集以及之前在[1]提出的合成数据集上与之前方法进行了实验对比，验证了我们方法的有效性，建立了场景文字擦除问题的基准(Benchmark)，以便于后续研究工作的开展。

一、研究背景

场景文字擦除在近几年得到了越来越多的关注，这项技术在隐私保护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用。文字擦除不仅仅是给自然场景中的文字打上马赛克这样简单，而是要考虑在擦掉文字的同时保持文本区域背景的原特征，这就为这个任务带来了挑战。目前围绕这一课题学者们也提出了诸如SceneTextEraser[2]，EnsNet[1]，MTRNet[3]等文字擦除模型，但这些模型基本都是基于合成数据SynthText[4]以及少量真实数据进行训练，当这些算法应用到真实场景中可能不具备泛化能力。因此，为了促进文字擦除技术的发展，亟待建立一个场景文字擦除的数据库，提供可靠的数据和分析用以评价不同擦除模型的性能。今天介绍的文章提出了新的真实场景下的文字擦除数据集SCUT-EnsText，并提出了EraseNet模型，该方法在文字擦除任务中取得了不错的性能。

二、SCUT-EnsText数据集简介

图1 SCUT-EnsText数据集

图1展示了SCUT-EnsText的一些样本。这批数据主要采集自如ICDAR 2013，ICDAR 2015，SCUT CTW1500等公开数据集，数据来源如表格1所示。该数据集总共包含3562张场景图片，有着2w余个文本实例。这些文本涵盖中英文以及数字等不同字形，也将水平文本、任意四边形文本和曲线文本等考虑在内；同时考虑到背景复杂度对文字擦除的影响，也刻意挑选了不同背景、不同亮度的文本背景图片。这些特性增加了数据集的挑战性和对不同数据类型的适应性和泛化性。SCUT-EnsText训练集包含2749张图片，测试集813张图片，它为场景文字擦除任务建立了新的基准。

三、整图级别端到端文字擦除网络EreaseNet

这篇文章同时提出了一个端到端场景文字擦除模型，通过引入两阶段的编解码器（Coarse-to-refinement）以及一个额外的文本感知分支构建了文字擦除生成对抗网络EraseNet，模型的流程图如图2所示。

图2 端到端场景文字擦除模型流程图

1. 方法流程

生成器 EnsNet的输出很多时候存在擦除不彻底的问题，比如文本只擦了一部分或者会留有明显的文本轮廓，于是EraseNet在EnsNet生成器的基础上额外加了一个编解码网络作为对第一阶段输出结果的进一步微调（Refinement），训练的时候会对两个阶段的输出都进行有效的监督以确保生成图片的质量。此外，考虑到整图级别的端到端文字擦除会存在文本遗漏的问题，一个简单直接的想法便是额外加入一个文本感知分支，将网络作为一个多任务学习的模型，在进行擦除的同时能比较准确的定位文字区域的位置，对于这个分支，考虑到样本不均衡的问题我们使用Dice Loss去优化，Dice Loss的定义如下：

判别器为了保证生成器输出结果的质量(文字擦除区域的质量以及该区域与非文本背景区域的连续性等)，本文使用了局部-全局（local-global）FCN作为判别器。它最终将全局和局部的特征Patch拼接在一起进行真或假的判定。

考虑到生成对抗网络（GAN）训练的不稳定性（如模式坍塌和不收敛的问题），EraseNet使用基于谱归一化（SN）[5]的GAN（SN-Patch-GAN）为基本网络框架，谱归一化通过对每一层网络的权重矩阵的谱范数约束来满足Lipschitz条件，以增强GAN训练的稳定性。最终GAN的损失函数形式如下：

2. 训练损失函数的设计

除了上述介绍的Dice Loss和Ganloss，本文还引入了Local-aware Reconstruction Loss， Content Loss（包含Style Loss [6]和Perceptual Loss [7]）。

Local-aware reconstruction loss

M代表训练为输入的文本Mask，

和

分别代表Coarse阶段输出和最终微调后的输出。

最后EraseNet的损失函数形式为：

四、实验结果

实验主要在SCUT-EnsText和EnsNet[1]提出的8800张（8000用于训练，800测试）合成数据集上进行。

A．对于各模块的消融实验结果如下：

图3

量化结果对比和可视化结果图都验证了EraseNet各模块的有效性以及Content Loss在文字擦除任务中的积极作用。

B．与之前SOTA方法的对比实验结果如下，其中图表IV和V为SCUT-EnsText的结果，图5为合成数据的结果：

图4

图5

C．此外，还进行了与一些Image Inpainting方法和弱监督方法的对比，结果如图7所示。这也论证了EraseNet的有效性。D/I Weakly表示先检测后用预训练的Image Inpainting模型进行文字区域填补。

五、总结与讨论

本文提出了一个真实场景下用于场景文字擦除的数据集，能够用于文字擦除以及后续进行文本编辑等方面的研究。
本文构建了一个端到端场景文字擦除的网络EraseNet，它可以在整图级别不需要文本位置信息的先验下对场景中的文字进行擦除，并能取得较好的性能。

六、相关资源

EraseNet论文链接：https://ieeexplore.ieee.org/document/9180003
EraseNet代码：https://github.com/lcy0604/EraseNet
SCUT-EnsText数据集链接：https://github.com/HCIILAB/SCUT-EnsText

参考文献

[1] S. Zhang, Y. Liu, L. Jin, Y. Huang, andS. Lai, “Ensnet: Ensconce text in the wild,” in Proceedings of AAAI, vol. 33,2019, pp. 801–808.

[2] T. Nakamura, A. Zhu, K. Yanai, and S.Uchida, “Scene text eraser,” in Proceedings of ICDAR, vol. 01, 2017, pp.832–837.

[3] O. Tursun, R. Zeng, S. Denman, S.Sivapalan, S. Sridharan, and C. Fookes, “Mtrnet: A generic scene text eraser,”in Proceedings of ICDAR, 2019, pp. 39–44.

[4] A. Gupta, A. Vedaldi and A. Zisserman,"Synthetic Data for Text Localisation in Natural Images," 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR), LasVegas, NV, 2016, pp. 2315-2324.

[5] T. Miyato, T. Kataoka, M. Koyama, andY. Yoshida, “Spectral normalization for generative adversarial networks,” in Proceedings of ICLR, 2018.

[6] L. A. Gatys, A. S. Ecker, and M.Bethge, “Image style transfer using convolutional neural networks,” in Proceedings of CVPR, 2016, pp. 2414–2423.

[7] J. Johnson, A. Alahi, and L. Fei-Fei,“Perceptual losses for real-time style transfer and super-resolution,” in Proceedings of ECCV, 2016, pp. 694–711.

原文作者: Chongyu Liu, Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo,Yongpan Wang

撰稿：刘崇宇

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

论文推荐|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

生成图片，分享到微信朋友圈

论文推荐|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣